31 research outputs found
GAMoN: Discovering M-of-N{ÂŹ,â¨} hypotheses for text classification by a lattice-based Genetic Algorithm
AbstractWhile there has been a long history of rule-based text classifiers, to the best of our knowledge no M-of-N-based approach for text categorization has so far been proposed. In this paper we argue that M-of-N hypotheses are particularly suitable to model the text classification task because of the so-called âfamily resemblanceâ metaphor: âthe members (i.e., documents) of a family (i.e., category) share some small number of features, yet there is no common feature among all of them. Nevertheless, they resemble each otherâ. Starting from this conjecture, we provide a sound extension of the M-of-N approach with negation and disjunction, called M-of-N{ÂŹ,â¨}, which enables to best fit the true structure of the data. Based on a thorough theoretical study, we show that the M-of-N{ÂŹ,â¨} hypothesis space has two partial orders that form complete lattices.GAMoN is the task-specific Genetic Algorithm (GA) which, by exploiting the lattice-based structure of the hypothesis space, efficiently induces accurate M-of-N{ÂŹ,â¨} hypotheses.Benchmarking was performed over 13 real-world text data sets, by using four rule induction algorithms: two GAs, namely, BioHEL and OlexGA, and two non-evolutionary algorithms, namely, C4.5 and Ripper. Further, we included in our study linear SVM, as it is reported to be among the best methods for text categorization. Experimental results demonstrate that GAMoN delivers state-of-the-art classification performance, providing a good balance between accuracy and model complexity. Further, they show that GAMoN can scale up to large and realistic real-world domains better than both C4.5 and Ripper
Delayed surgery in neurologically intact patients affected by thoraco-lumbar junction burst fractures: to reduce pain and improve quality of life
This is a retrospective study on 18 patients affected by thoraco-lumbar junction burst fractures (TLJBF) A3 or A4 at computed tomography (CT) scan who referred to our hospital. To assess the surgical results in terms of pain and quality of life in a series of neurologically intact patients affected by TLJBF who underwent surgery after 3-4 months from the injury. In literature there is controversy if pain could be an indication for surgery in TLJBF and series of patients conservatively managed with success have been reported
Posterolateral arthrodesis in lumbar spine surgery using autologous platelet-rich plasma and cancellous bone substitute: an osteoinductive and osteoconductive effect
Study DesignâProspective cohort study. ObjectivesâTo analyze the effectiveness and practicality of using cancellous bone substitute with platelet-rich plasma (PRP) in posterolateral arthrodesis. MethodsâTwenty consecutive patients underwent posterolateral arthrodesis with implantation of cancellous bone substitute soaked with PRP obtained directly in the operating theater on the right hemifield and cancellous bone substitute soaked with saline solution on the right. ResultsâComputed tomography scans at 6 and 12 months after surgery were performed in all patients. Bone density was investigated by comparative analysis of region of interest. The data were analyzed with repeated-measures variance analyses with value of density after 6 months and value of density after 12 months, using age, levels of arthrodesis, and platelet count as covariates. The data demonstrated increased bone density using PRP and heterologous cancellous block resulting in an enhanced fusion rate during the first 6 months after surgery. ConclusionsâPRP used with cancellous bone substitute increases the rate of fusion and bone density joining osteoinductive and osteoconductive effect
A techinique for automatic generation of rule-based text classifiers exploiting negative information
Dottorato di Ricerca in Matematica ed Informatica,XIX Ciclo,a.a. 2005-2006UniversitĂ della Calabri
Disjunctive Stable Models: Unfounded Sets, Fixpoint Semantics, and Computation
Disjunctive logic programs have become a powerful tool in knowledge representation and commonsense reasoning. This paper focuses on stable model semantics, currently the most widely acknowledged semantics for disjunctive logic programs. After presenting a new notion of unfounded sets for disjunctive logic programs, we provide two declarative characterizations of stable models in terms of unfounded sets. One shows that the set of stable models coincides with the family of unfounded-free models (i.e., a model is stable iff it contains no unfounded atoms). The other proves that stable models can be defined equivalently by a property of their false literals, as a model is stable iff the set of its false literals coincides with its greatest unfounded set. We then generalize the well-founded WP operator to disjunctive logic programs, give a fixpoint semantics for disjunctive stable models and present an algorithm for computing the stable models of function-free programs. The algor..
GAMON discovering M-of-N hypotheses for text classification by a lattice-based genetic algorithm
Dottorato di Ricerca in Matematica ed Informatica, XXV Ciclo, a.a. 12013-2014Lo sviluppo delle moderne tecnologie informatiche, nonch´e la diffusione dei servizi per il Web, ha
portato ad una considerevole produzione di informazioni e dati di diversa natura: documenti testuali
(dati non strutturati), basi di dati (dati strutturati) e pagine Html (dati semi-strutturati). La disponibilit`
a, sempre pi`u crescente, di considerevoli quantit`a di dati ha posto, di conseguenza, il problema
della loro memorizzazione, della loro organizzazione e del loro reperimento. Inoltre, se non ci
fossero strumenti idonei a trattare le sole informazioni di interesse, tutti questi dati rischierebbero
di essere inutilizzabili. Le informazioni, infatti, rappresentano il punto di partenza per lâestrazione
di conoscenza, attivit`a che, in passato, ha fatto riferimento allâanalisi e allâinterpretazione manuale,
fondata sullâattivit`a di uno o pi`u esperti addetti a prendere le decisioni sul caso corrente. Lâanalisi
manuale, chiaramente, presenta molteplici aspetti negativi. Prima tra tutti essa `e caratterizzata da
lunghi tempi di analisi e da alti costi di realizzazione; infine, risulta altamente soggettiva e in accurata.
Tali aspetti negativi vengono ulteriormente aggravati dallâenorme mole di dati da dover
trattare. Aggregare, classificare e recuperare le informazioni di interesse con tempestivit`a, efficacia
e a costi ridotti `e sicuramente pi`u vantaggioso rispetto ai tradizionali approcci di analisi manuale.
In particolare, la possibilit`a di poter classificare automaticamente enormi quantit`a di documenti,
potendoli poi ritrovare facilmente sulla base dei concetti espressi e sulle tematiche trattate, piuttosto
che affidarsi ad unâanalisi manuale, `e una necessit`a che viene sentita non solo dalla comunit`a
scientifico/accademica, ma anche da quella aziendale, commerciale e finanziaria.
Il Text Classification (TC) o Text Categorization `e una disciplina che coniuga diverse aree
di ricerca, dallâInformation Retrieval (IR), al Machine Learning (ML), al Natural Language Processing
(NLP) e mira alla costruzione di sistemi per la classificazione automatica dei dati in categorie
tematiche di interesse. In particolare, nel TC, i dati sono costituiti da una collezione di
documenti testuali non strutturati, i quali vengono suddivisi in gruppi sulla base del contenuto, attraverso
lâassegnamento del testo ad una o pi`u categorie tematiche predefinite. Le prime ricerche
nellâambito del TC risalgono allâinizio degli anni â60. Tuttavia, `e solo nellâultimo decennio che tale
problema sta suscitando un interesse crescente sia nel settore della ricerca scientifica che in contesti
industriali. Possibili applicazioni del TC spaziano dallâindicizzazione automatica di articoli
scientifici, allâorganizzazione delle e-mail, al filtraggio dello spam, ecc.
Negli ultimi decenni, sono stati proposti un gran numero di sistemi per la classificazione di
documenti testuali suddivisibili, principalmente, in tre macro-tipologie sulla base dellâapproccio
seguito nella costruzione dei classificatori:
⢠approccio di tipo Expert Systems (ES); ⢠approccio di tipo Machine Learning (ML);
⢠approccio di tipo Ibrido. Ibrido.
Il primo approccio, affermatosi allâinizio degli anni â60 prevede lâimpiego di esperti di dominio
(classificazione manuale) nella definizione dei classificatori per le categorie di interesse.
Questo tipo di approccio ha consentito la definizione di classificatori molto efficaci. Di contro,
per`o, lâapproccio di tipo ES presenta due svantaggi principali: risulta molto dispendioso in termini
di risorse umane utilizzate e poco flessibile. Infatti, nel momento in cui cambia il contesto di riferimento,
i nuovi classificatori devono essere nuovamente definiti manualmente. Per questo motivo, a
partire dagli anni â90, lâapproccio di tipo ES `e stato quasi completamente sostituito dallâapproccio
di tipo ML, il cui obiettivo principale non `e la definizione dei classificatori, quanto la costruzione
di sistemi in grado di generare automaticamente i classificatori. Pi`u in particolare, nellâambito
di questo paradigma, lâobiettivo `e la definizione di sistemi capaci di apprendere automaticamente
le caratteristiche di una o pi`u categorie, sulla base di un insieme di documenti precedentemente
classificati (training set). Questo approccio presenta numerosi vantaggi rispetto a quello di tipo
Expert Systems. I sistemi di apprendimento, infatti, mostrano generalmente unâelevata efficacia,
consentono un considerevole risparmio in termini di risorse umane impiegate nel processo di definizione
dei classificatori e garantiscono una immediata portabilit`a verso nuovi domini.
Negli ultimi anni sono stati proposti svariati sistemi per la classificazione automatica di documenti
testuali basati, essenzialmente, su processi di tipo induttivo. Tali sistemi sfruttano, generalmente,
misure statistiche e, talvolta, vengono importati nellâambito del TC da altre aree dellâInformation
Retrieval e del Data Mining. Un esempio emblematico `e il caso delle Support Vector Machine
(SVM) utilizzate, dapprima, per la risoluzione di problemi di regressione e, attualmente, considerate
allo stato dellâarte per il Text Categorization.
Un posto di rilievo nel paradigma dellâinduzione di classificatori `e occupato dagli algoritmi di
apprendimento âa regoleâ o ârule-basedâ, dove i classificatori vengono specificati come insiemi
di regole. Tali classificatori hanno la propriet`a desiderabile di essere comprensibili da un lettore
umano, mentre la maggior parte degli altri approcci esistenti, come SVM e Neural Network, producono
classificatori che difficilmente un lettore umano riesce ad interpretare. Classificatori con
queste caratteristiche vengono spesso chiamati di tipo black-box. Infine, lâapproccio di tipo Ibrido
combina il metodo Expert System con quello Machine Learning, per ottenere un sistema di categorizzazione
che sfrutta sia i benefici derivanti da una conoscenza di dominio, sia i benefici derivanti
dalla costruzione di sistemi automatici.
Ultimamente, la comunit`a scientifica sta adottando tecniche di TC sempre pi`u innovative che,
generalmente, si discostano di molto dagli approcci classici di tipo deterministico. In effetti, una
recente tendenza nellâambito del TC `e quella di sfruttare tecniche di apprendimento basate su metaeuristiche,
come gli Algoritmi Evoluzionistici o Genetici. Tecniche di questo tipo sono, general mente, costituite da tre componenti essenziali:
⢠un insieme di soluzioni candidate, chiamato popolazione, costituito da individui o cromosomi.
Questi evolvono durante un certo numero di iterazioni (generazioni) generando, alla
fine dellâevoluzione, la soluzione migliore;
⢠una funzione obiettivo, chiamata funzione di fitness, usata per assegnare a ciascun individuo
un peso (score) che indica la bont`a dellâindividuo stesso;
⢠un meccanismo evolutivo, basato su operatori evoluzionistici come crossover, mutazione ed
elitismo, che consentono di modificare il materiale genetico degli individui che costituiscono
la popolazione.
Approcci di questo tipo introducono notevoli vantaggi rispetto alle tecniche classiche. Ad esempio,
il meccanismo evolutivo `e noto per essere un metodo robusto e di successo, infatti, `e utilizzato
per la risoluzione di molti problemi di ottimizzazione intrinsecamente difficili da risolvere.
Inoltre, il meccanismo evolutivo riduce sensibilmente lo spazio di ricerca delle soluzioni ammissibili
e molte tecniche evolutive riescono a risolvere problemi complessi senza conoscere il preciso
metodo di soluzione.
In questo lavoro di tesi proponiamo un modello di classificazione a regole, denominato GAMoN,
basato sullâutilizzo di Algoritmi Genetici per lâinduzione delle regole di classificazione. Un
classificatore H generato dal sistema GAMoN per una data categoria c assume la forma di una
disgiunzione di atomi Hic
del tipo:Hc = H1
c
⨠¡ ¡ ¡ ⨠Hr
c
dove ciascun atomo Hic
`e una quadrupla , dove:
⢠Pos = {t1, .., tn} `e lâinsieme dei termini positivi, ovvero lâinsieme dei termini che sono
rappresentativi per la categoria c di riferimento;
⢠Neg = {tn+1, , tn+m} `e lâinsieme dei termini negativi, ovvero lâinsieme dei termini che sono
indicativi della non appartenenza alla categoria;
⢠mi e ni sono numeri naturali, chiamati soglie, tali che mi >= 0 e ni > 0.
Intuitivamente, il significato attribuito a ciascun atomo Hic
`e il seguente: âclassifica il generico
documento d sotto la categoria c se almeno mi termini positivi compaiono in d e meno di
ni termini negativi compaiono in dâ. Infatti, il linguaggio delle ipotesi introdotto da GAMoN `e
chiamato MofN+, una estensione dei classificatori di tipo MofN con la componente dei termini
negativi. Da qui nasce lâacronimo âGAMoNâ, che sta ad indicare un sistema di classificazione testuale
basato su âAlgoritmi Geneticiâ di tipo âM of Nâ. GAMoN `e un sistema di classificazione che nasce come estensione di âOlex-GAâ, un modello di classificazione âa regoleâ basato sul paradigma
evoluzionistico e realizzato in precedenti lavori di ricerca. Un classificatore generato da GAMoN
coincide con quello di Olex-GA quando mi=1 e ni = 1. Infatti, un classificatore Olex-GA assume
il significato âse almeno uno dei termini positivi t1, ..., tn appare nel documento d e nessuno dei
termini negativi tn+1, , tn+m appare in d, allora classifica d sotto la categoria câ.
Il sistema GAMoN `e stato testato su 13 corpora di benchmark (Reuters-21578, Ohsumed, OH5,
OH0, OH10, OH15, Blogs Gender, Ohscale, 20 Newsgroups, Cade, SRAA, ODP e Market) e messo
a confronto con altri 5 sistemi di classificazione: BioHEL [18, 48] e Olex-GA [101], che sono sistemi
di classificazione a-regole basati sul paradigma evoluzionistico; Ripper [37] e C4.5 [105],
che sono sistemi di classificazione a-regole non evoluzionistici; infine, SMO che `e una implementazione
di SVM lineare [76]. Gli studi sperimentali mettono in evidenza come GAMoN induca
classificatori che sono, al tempo stesso, accurati e compatti. Tale propriet`a `e stata osservata su tutti
i corpora utilizzati nella sperimentazione, dove GAMoN ha mostrato sempre un comportamento
uniforme. Poich´e i corpora utilizzati si riferiscono a contesti applicativi notevolmente diversi, possiamo
affermare che GAMoN ha dato prova di essere un sistema robusto. Complessivamente,
GAMoN ha dimostrato un buon bilanciamento tra accuratezza e complessit`a del modello generato;
inoltre, `e risultato molto efficiente per la classificazione di corpora di grandi dimensioni.
Il seguito della tesi `e organizzato in tre parti principali di seguito elencate:
⢠nella Parte I verr`a definito formalmente il problema del Text Categorization e verranno rivisitati
i principali contesti applicativi nei quali sono sfruttate tecniche di questo tipo;
⢠nella Parte II verranno presentati diversi metodi e sistemi di classificazione documentale, al
fine di realizzare una valutazione comparativa delle loro peculiarit`a nellâambito della tematica
di interesse;
⢠nella Parte III verr`a presentato dettagliatamente il sistema GAMoN. In particolare, verranno
riportate alcune definizioni formali quali, ad esempio, il linguaggio e lo spazio delle ipotesi,
gli operatori di crossover utilizzati dal sistema e verranno descritti e mostrati i risultati sperimentali
ottenuti, attraverso unâanalisi comparativa con i sistemi di learning s`u citatiUniversitĂ della Calabri
Olex Effective Rule Learning for Text Categorization
Dottorato di Ricerca in Matematica ed Informatica,XX Ciclo,a.a. 2006-2007Le prime ricerche nellâambito del Text Categorization, una sotto-area dellâ Information
Retrieval il cui obiettivo `e la classificazione automatica di documenti
rispetto a un insieme di categorie predefinite, risalgono ai primi anni â60. Tuttavia
`e nellâultimo decennio che tale problema ha ricevuto interesse crescente sia nel
settore della ricerca scientifica che in contesti applicativi. Infatti, la disponibilit`a
di grandi quantit`a di dati, resa possibile dallo sviluppo delle moderne tecnologie
informatiche e dei servizi web affermatisi di recente, ha posto il problema
della loro memorizzazione e organizzazione. Nellâambito della comunit`a scientifica,
lâapproccio dominante `e basato sullâapplicazione di tecniche di tipo Machine
Learning, il cui obiettivo `e la definizione di sistemi capaci di âapprendereâ
automaticamente le caratteristiche di una o pi`u categorie, sulla base di un insieme
di documenti precedentemente classificati (training set). Questo approccio presenta
numerosi vantaggi rispetto a quello di tipo Expert Systems (in cui esperti
di dominio sono impiegati nella definizione manuale dei classificatori per le categorie
di interesse). I sistemi di apprendimento, infatti, mostrano generalmente
unâelevata efficacia, consentono un considerevole risparmio in termini di risorse
umane impiegate nel processo di definizione dei classificatori e garantiscono una
immediata portabilit`a verso nuovi domini.
Negli ultimi anni sono stati proposti numerosi metodi, basati su processi di
tipo induttivo, per lâapprendimento automatico di classificatori. Questi sistemi
sono generalmente basati su tecniche statistiche e spesso sono stati importati
nellâambito del Text Categorization da altre aree dellâInformation Retrieval e del
Data Mining, come nel caso delle Support Vector Machine, dapprima utilizzate
per problemi di regressione e attualmente considerate allo stato dellâarte per il
Text Categorization.
Un posto di rilievo nel paradigma dellâinduzione di classificatori `e occupato dagli
algoritmi di apprendimento rule-based. I classificatori, specificati come insiemi
di regole, hanno la propriet`a desiderabile di essere comprensibili da un lettore
umano, al contrario della maggior parte degli altri approcci esistenti, come Support
Vector Machine, Neural Network, che sono di tipo black-box, tali, cio`e, che
un umano non possa interpretare i classificatori prodotti, n´e intervenire nel processo
di apprendimento.
2
Nellâambito del Text Categorization, il problema dellâinduzione di regole pu`o
essere in generale formulato come segue. Dati:
1. Una conoscenza pregressa (background knowledge) B, rappresentata come
un insieme di fatti logici ground del tipo T 2 d che indicano la presenza del
termine t nel documento d (anche altri fatti possono far parte di B);
2. un insieme di esempi positivi, rappresentati come fatti logici ground del tipo
d 2 C , che individuano lâinsieme dei documenti manualmente classificati
sotto la categoria c, cio`e la classificazione ideale di c (lâinsieme degli esempi
negativi `e definito implicitamente secondo la ClosedWorld Assumption, per
cui se un documento d non `e esplicitamente definito come esempio positivo
per c, allora esso `e un esempio negativo.);
costruire un insieme di ipotesi (il classificatore di c) che, insieme alla background
knowledge, soddisfi tutti gli esempi (positivi e negativi).
Un problema di questo tipo `e computazionalmente complesso, a meno che
non si rilassi il vincolo per il quale lâalgoritmo di learning deve rappresentare
con esattezza il concetto target e si consentano, invece, delle approssimazioni. Il
teorema di Valiant della PAC-learnability (Probably Approximately Correct) fornisce
un modello di âlearning polinomialeâ per un sottoinsieme della logica preposizionale.
Nel framework PAC, la quantit`a di risorse polinomialmente limitate (sia
in termini di numero di esempi che di tempo computazionale) `e controbilanciata
dallâaccuratezza delle ipotesi indotte.
Le regole indotte a partire dalla background knowledge e dagli esempi (sia positivi
che negativi) consentiranno predizioni sullâappartenenza di un documento a
una categoria, sulla base della presenza/assenza di un insieme di termini nel dato
documento. Comunque, mentre nella teoria computazionale del learning si assume
che gli esempi di input siano consistenti con qualche ipotesi nello spazio
delle ipotesi, nel Text Categorization ci`o non `e necessariamente vero. Infatti, in
generale, non `e possibile classificare un documento sotto una data categoria solo
sulla base dei termini che appaiono in esso. Lâipotesi indotta, in tal caso, `e una tra
quelle che massimamente soddisfa sia gli esempi positivi che quelli negativi.
In questa tesi presentiamo Olex, una nuova tecnica per lâinduzione di regole di
classificazione di testi. Il problema dellâapprendimento di classificatori in Olex `e
definito come un problema di ottimizzazione, in cui la F-misura `e utilizzata come
3
funzione obiettivo. In particolare, obiettivo del task di ottimizzazione `e quello
di determinare un insieme ottimo Xc di termini discriminanti (d-terms) capaci di
caratterizzare i documenti del training set della categoria c.
Un termine discriminante Ts `e una congiunzione di termini âsempliciâ con un
segno (positivo o negativo). Diciamo che Ts appare nel documento d se tutti i
termini di cui Ts `e composto appaiono in d. Intuitivamente, un termine positivo
che appare in un documento d `e indicativo dellâappartenenza di d alla categoria
c; dualmente, un termine negativo `e indicativo di non appartenenza. Quindi, un
documento che contenga almeno un d-term positivo e non contiene alcun d-term
negativo `e classificabile sotto c, secondo Xc.
Il task di ottimizzazione, quindi, pu`o essere definito informalmente come il
problema di trovare un insieme Xc di termini tali che lâinsieme dei documenti del
training set classificabili sotto c, secondo Xc, massimizzi la funzione obiettivo
(intuitivamente, aderisca quanto pi`u possibile al training set della categoria c).
Dato un insieme (ottimo) di termini Xc, lâipotesi corrispondente (il classificatore
di c) ha la forma seguente:
c à T1 2 d; Tn+1 =2 d; ¢ ¢ ¢ ; Tn+m =2 d
:::::
c à Tn 2 d; Tn+1 =2 d; ¢ ¢ ¢ ; Tn+m =2 d:
e stabilisce la classificazione del documento d sotto la categoria c, se d contiene
almeno uno dei termini positivi T1; ::::; Tk e non contiene alcun termine negativo
Tk+1; :::; Tn. Quindi, la presenza di un d-term positivo richiede la contestuale
assenza di tutti d-term negativi. I classificatori indotti contengono una regola per
ogni d-term positivo e tutte le regole condividono la stessa parte negativa, costituita
da un letterale negativo per ogni termine negativo in Xc.
Notiamo che il linguaggio delle ipotesi di Olex, costituito essenzialmente da clausole
di Horn estese da congiunzioni negative di termini, non `e PAC-learnable.
Siccome lâinsieme che massimizza la funzione obiettivo dipende dalla scelta del
vocabolario (cio`e lâinsieme dei termini selezionati per lâinduzione dei classificatori),
al fine di trovare i classificatori âmiglioriâ lâalgoritmo di ottimizzazione
viene ripetuto con diversi vocabolari di input e infine i classificatori con le migliori
prestazioni vengono scelti.
4
Il linguaggio delle ipotesi di Olex `e originale e, come dimostrato dalla sperimentazione,
molto efficace nel produrre classificatori accurati e compatti. Gli
esperimenti effettuati su due corpora di benchmark generalmente usati in letteratura
al fine di confrontare algoritmi di learning, REUTERS-21578 e OHSUMED ,
hanno confermato le aspettative sul nostro modello. Infatti, su entrambi i data set,
Olex ha prestazioni molto elevate, tra le migliori in letteratura; inoltre, a differenza
di altri algoritmi di learning che mancano di interpretabilit`a, Olex ottieneinduce
modelli di classificazione che possono essere facilmente letti, compresi e modificati
da un essere umano.
Le elevate prestazioni ottenute sui data set presi in considerazione mostrano che
il paradigma âun letterale positivo, zero o pi`u letterali negativiâ `e molto efficace.
Intuitivamente, possiamo dire che esso consente di catturare gran parte dei documenti
corretti (attraverso il letterale positivo) senza tuttavia commetter troppi
errori (grazie ai letterali negativi).
A differenza di altri sistemi di learning, Olex `e basato su idee molto semplici
e dirette e perci`o fornisce una chiara intuizione del modello alla base del processo
di apprendimento. Inoltre, Olex presenta diverse propriet`a desiderabili per
lâapprendimento di classificatori:
² `e accurato anche per categorie piccole, cio`e con un basso numero di documenti
manualmente associati a esse;
² non richiede tutto lâinsieme di termini del training set per lâapprendimento
ma, al contrario, lavora bene anche su piccoli vocabolari;
² `e robusto, in quanto mostra un comportamento simile su tutti i data set
considerati.
Inoltre, grazie al fatto di essere rule-based, Olex consente una semplice integrazione
della conoscenza di dominio, racchiusa in thesauri, nel processo di
apprendimento. Lâutilit`a di tale conoscenza nel processo di learning `e stata sperimentata
in Olex su due data set, relativi al settore assicurativo e fornitici da una
societ`a americana, la FCSI (Full Capture Solutions, Inc). Questa prima sperimentazione
ha mostrato che lâutilizzo di conoscenza di dominio d`a solo un piccolo
contributo al miglioramento delle prestazioni dei classificatori prodotti. Tuttavia
questo risultato deve ritenersi parziale; uteriori test saranno effettuati per stabilire
se questo risultato pu`o essere generalizzato oppure lâutilizzo di tesauri pi`u appropriati
possa effettivamente apportare un importante contributo nella classificazione
documentale.
5
Infine, il sistema sviluppato supporta lâintegrazione dellâapproccio manuale nellâ
apprendimento automatico di classificatori. Grazie allâinterpretabilit`a dei classificatori
prodotti, infatti, lâingegnere della conoscenza pu`o partecipare alla costruzione
di un classificatore, specificando un insieme di regole da utilizzare congiuntamente
a quelle apprese automaticamente. Pi`u in dettaglio, al fine di supportare
un approccio ibrido, il sitema Olex `e stato progettato in maniera tale che i classificatori
prodotti automaticamente siano modificabili manualmente. Unâulteriore
funzionalit`a introdotta al fine di sfruttare la conoscenza di dominio `e quella che
prevede il completamento automatico di un classificatore scritto manualmente.
Questa funzionalit`a consente di:
² scrivere un insieme di regole di classificazione, sulla base delle indicazioni
dellâ esperto del dominio, e verificarne lâaccuratezza
² chiedere al sistema di completare automaticamente il classificatore manuale
al fine di migliorarne lâaccuratezza.
I risultati sperimentali hanno mostrato che questa cooperazione pu`o avere effettivi
sinergici, consentendo di ottenere prestazioni migliori sia rispetto allâapproccio
manuale che a quello automatico.
In sintesi, in questa tesi vengono affrontatele questioni su riportate e in particolare:
² viene definito formalmente il problema del Text Categorization e vengono
rivisitati i principali contesti applicativi nei quali sono sfruttate tecniche di
questo tipo;
² vengono discussi i metodi e i sistemi di classificazione documentale, al fine
di realizzare una valutazione comparativa delle loro peculiarit`a nellâambito
della tematica di interesse;
² viene presentato il sistema Olex; in particolare, dopo aver definito il problema
di selezione dei termini discriminanti, che rappresenta il cuore del
nostro metodo, viene dimostrato che tale problema `e computazionalmente
difficile e viene poposta unâ euristica per la sua soluzione.
² vengono mostrati i risultati sperimentali ottenuti e viene effettuata una valutazione
comparativa delle prestazioni del nostro sistema rispetto ad altri
sitemi di learning esistenti in letteraturaUniversitĂ della Calabri